Telegram Group & Telegram Channel
Обратная сторона игры в Atari

Посмотрим на кривую обучения, приведённую в статье, для игры Breakout - это та, где нужно отбивать красный "кубик" доской, которую вы перемещаете в нижней части экрана.

Одна эпоха по оси времени - это 50000 апдейтов весов, то есть нужно больше миллиона апдейтов, чтобы выучить элементарную стратегию - поддерживать доску на одном уровне с мячом.

В режиме Supervised learning при размеченном датасете мы бы могли обучить такую нейросеть гораздо быстрее и используя гораздо меньше данных - всего для обучения в каждой игре было сыграно по 10 миллионов кадров. Но в рамках поставленной задачи предполагается, что такого датасета у нас нет, и нейросеть учится сама методом проб и ошибок, что и делает процесс обучения чудовищно жадным в плане данных.

Отмечу, что революции в data-efficiency с тех пор не произошло, и все следующие годы количество данных для обучения только росло. Но про те безумные числа мы поговорим в другой раз.

Конечно, это не приговор - всего лишь нужно научиться переносить знания между доменами и средами. А это уже совсем другая история.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/19
Create:
Last Update:

Обратная сторона игры в Atari

Посмотрим на кривую обучения, приведённую в статье, для игры Breakout - это та, где нужно отбивать красный "кубик" доской, которую вы перемещаете в нижней части экрана.

Одна эпоха по оси времени - это 50000 апдейтов весов, то есть нужно больше миллиона апдейтов, чтобы выучить элементарную стратегию - поддерживать доску на одном уровне с мячом.

В режиме Supervised learning при размеченном датасете мы бы могли обучить такую нейросеть гораздо быстрее и используя гораздо меньше данных - всего для обучения в каждой игре было сыграно по 10 миллионов кадров. Но в рамках поставленной задачи предполагается, что такого датасета у нас нет, и нейросеть учится сама методом проб и ошибок, что и делает процесс обучения чудовищно жадным в плане данных.

Отмечу, что революции в data-efficiency с тех пор не произошло, и все следующие годы количество данных для обучения только росло. Но про те безумные числа мы поговорим в другой раз.

Конечно, это не приговор - всего лишь нужно научиться переносить знания между доменами и средами. А это уже совсем другая история.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/19

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

The global forecast for the Asian markets is murky following recent volatility, with crude oil prices providing support in what has been an otherwise tough month. The European markets were down and the U.S. bourses were mixed and flat and the Asian markets figure to split the difference.The TSE finished modestly lower on Friday following losses from the financial shares and property stocks.For the day, the index sank 15.09 points or 0.49 percent to finish at 3,061.35 after trading between 3,057.84 and 3,089.78. Volume was 1.39 billion shares worth 1.30 billion Singapore dollars. There were 285 decliners and 184 gainers.

Mr. Durov launched Telegram in late 2013 with his brother, Nikolai, just months before he was pushed out of VK, the Russian social-media platform he founded. Mr. Durov pitched his new app—funded with the proceeds from the VK sale—less as a business than as a way for people to send messages while avoiding government surveillance and censorship.

Knowledge Accumulator from sg


Telegram Knowledge Accumulator
FROM USA